[レポート]Amazon SageMaker HyperPodで高性能なFMをスケールして実行 #AIM314-R1
AWS認定トレーニング講師の平野@おんせん県おおいたです。
今日は「Run high-performing FMs at scale with Amazon SageMaker HyperPod」というタイトルのワークショップについてレポートします。
公式セッション紹介(日本語訳)
概要/オススメポイント
Amazon SageMaker HyperPod でトレーニング用のクラスターを構築するワークショップになります。
このワークショップは下記のように公開されています。
この中可から下記のようにピックアップしてハンズオンが実施されました。
-
- Prerequisites
-
- At an AWS Event
-
- Cluster Setup
- a. Setup Environment Variables
- b. Configure the EKS Cluster
- c. Install Dependencies
- d. Create the HyperPod Cluster
- e. View the AWS Console
-
- Observability
-
- Amazon CloudWatch Container Insights
- a. Container Insights setup
-
- Pytorch DDP on CPU
- c. Simple Execution
-
- Resiliency
- a. Manual Reboot (while training job is running)
-
-
- Ray on HyperPod
- a. Setup
-
- Open aws-do-ray container shell
-
- Configure AWS credentials and environment variables
-
- Verify connection to hyperpod cluster
-
- Setup dependencies
c. Serving Stable Diffusion Model for Inference
- Setup dependencies
-
- Create a RayService
-
- Access Ray Dashboard (Optional)
- a. Port-forward the service locally and use a terminal-based browser to view the dashoard
- a. Port-forward the service locally and use a terminal-based browser to view the dashoard
-
- Inference
- Edit
stable_diffusion_cpu_req.py
and modify the value of variableprompt
to customize your request
-
-
- Observability
-
- Amazon CloudWatch Container Insights
- b. Container Insights Dashboards
まとめ
ワークショップの概要を紹介しました。
基盤モデルの学習は規模が多くなり、クラスターでのトラブルの影響が広くなります。
それを解決するための手法となります。
普段利用しないサービスでしたので、かなり勉強になりました。